Ю.С. ЗАТУЛИВЕТЕР1, Ю.А. ПОПОВ,
А.Б. СЕРЕБРЯКОВ1, С.Ю. СМИРНОВ, В.О. ТИХОМИРОВ

 

Московский инженерно-физический институт (государственный университет),
1Институт проблем управления РАН, Москва

 

ИЗУЧЕНИЕ ВОЗМОЖНОСТИ ПРИМЕНЕНИЯ
ЯЗЫКА ПАРСЕК ДЛЯ РЕШЕНИЯ
РАСПРЕДЕЛЁННЫХ ВЫЧИСЛИТЕЛЬНЫХ ЗАДАЧ
В ОБЛАСТИ ФУНДАМЕНТАЛЬНОЙ ЯДЕРНОЙ ФИЗИКИ

 

Рассмотрены особенности перспективных программ исследований в области фундаментальной физики и разработки ПО для их реализации.

Предлагается использование языка и системы программирования ПАРСЕК для решения и интеграции физических задач в математически однородном поле компьютерной информации на основе исчисления древовидных структур (оригинальная разработка [1]).

Проведены сведения об опыте использования системы программирования ПАРСЕК. Приведен пример применения системы ПАРСЕК для решения простейшей задачи столкновений частиц в модели упругих шаров.

 

Перспективы исследований в физике элементарных частиц

Одним из важнейших проектов в физике элементарных частиц, который предстоит реализовать в ближайшем будущем, является строительство Большого Адронного Коллайдера (LHC) [2] в ЦЕРНе (Швейцария). Этот гигантский ускоритель заряженных частиц длиной 27 км, который будет запущен в 2007 году, позволит существенно расширить диапазон исследований в области фундаментальной ядерной физики, нацеленных на более глубокое понимание основополагающих свойств материи, открыть новые горизонты науки. Для изучения этих физических явлений требуется достигнуть нового уровня энергии и светимости ускорителя. Проект БАК как раз и предусматривает достижение в 10 раз большей энергии и в 100 раз более высокой частоты протон-протонных столкновений, чем у ныне существующих ускорителей. Планируется достигнуть энергии встречных столкновений протонных пучков 14 ТэВ с рекордно высокой светимостью 1034 -2с-1. Также на этом ускорителе подготавливаются эксперименты на пучках релятивистских ядер с энергией от 5.5 до 7 ТэВ на пару нуклонов (в системе центра масс) в зависимости от массы ядра. Участие России в проекте БАК – важнейшая часть национальной научной программы в области исследования фундаментальных свойств материи. Российские физики принимают активное участие в создании всех экспериментальных установок БАК (ATLAS, CMS, ALICE, LHCb), разработке программного обеспечения и программ физических исследований. Ожидается, что в процессе проведения экспериментов на БАК потребуется решение уникальных задач, в ходе которых будут созданы новые технологии с широким применением в промышленности и информатике. В качестве примера можно указать на создание всемирной информационной сети World Wide Web (WWW), начало которой было положено пионерскими разработками ученых ЦЕРНа в начале 90-х годов.

Особенностью проекта БАК является огромный объем регистрируемых экспериментальных данных, что связано с большой энергией пучков и светимостью ускорителя. Например, в установках ATLAS и CMS будет фиксироваться в каждом около 100 событий взаимодействий протонов в секунду, или порядка 109 событий в год, каждое из которых имеет размер около 1 Мбайт. В целом по четырем детекторам это составит поток информации порядка 4x109 Мбайт за год, при пиковой скорости ее поступления до нескольких Гбайт в секунду. При этом речь идет об уже первично обработанной информации, которая будет направляться на хранение для последующих этапов реконструкции. По сравнению с потоком данных, планируемых на втором этапе работы протон-антипротонного коллайдера ТЭВАТРОН (Национальная Лаборатория им. Ферми – FNAL – США, 2002-2003 гг.), это означает увеличение в 100 раз, а в сравнении с ускорителем ЛЭП (завершившем работу в ЦЕРНе осенью 2000 г.) в 1000 раз. Для обработки такого объема экспериментальной информации требуется эквивалент в 200000 самых быстрых современных ПК, что даже с учетом прогнозируемого роста быстродействия отдельных процессоров, тем не менее диктует необходимость применения распределенной модели для построения вычислительного комплекса БАК.

Концепция организации обработки данных до получения информации, пригодной для физического анализа, находится в стадии разработки экспериментами БАК. Признано, что весь объем информации с детекторов БАК после первичной реконструкции в ЦЕРНе будет направляться для дальнейшей обработки в распределенные региональные вычислительные центры, одним из которых будет сам ЦЕРН.

Для обеспечения совместного функционирования таких распределенных вычислительных центров все шире используется новый подход к технологии их создания и работы. Такой подход был реализован в концепции GRID [3, 4] (название по аналогии с электрическими сетями – electric power grids) предполагает создание компьютерной инфраструктуры нового типа, обеспечивающей глобальную интеграцию информационных и вычислительных ресурсов на основе управляющего и оптимизирующего программного обеспечения (middleware) нового поколения. Для достижения этой цели создается набор стандартизированных служб для обеспечения надежного, совместимого, дешевого и всеобъемлющего доступа к географически распределенным высокотехнологическим и вычислительным ресурсам – отдельным компьютерам, фермам и суперкомпьютерным центрам, хранилищам информации, сетям, научному инструментарию и т.д.

Рассматриваемая в данной работе система программирования ПАРСЕК является одним из возможных языков программирования, способным эффективно решать задачи распределенной обработки и хранения данных.

 

Древовидное представление программ и данных

в системе ПАРСЕК [1]

Язык и система программирования ПАРСЕК использует исчисление древовидных структур с открытой интерпретацией, представленных в геометрической форме.

Различные формы древовидных структур (ДС) широко используются в языках программирования как формализованные типы данных, например, списки (ЛИСП), структуры (Си, Паскаль), объекты (C++). В прикладных системах с применением ДС реализуются пользовательские интерфейсы, гипертекстовые справочники и т.д.

Практика показывает, что использование ДС повышает качество программных продуктов, обеспечивает сокращение стоимости и сроков разработок, а также обеспечивает процессы наращивания и интеграции программных продуктов.

В ПАРСЕК выбрана геометрическая форма представления ДС. Такая форма позволяет строить деревья любого размера с использованием только шести (четырёх основных и двух вспомогательных) символов псевдографики, взятых из таблицы ASCII. Посредством деревьев в геометрической форме представляются как данные, так и программы.

ПАРСЕК составляет компьютерную реализацию исчисления деревьев с открытой интерпретацией, которая может рассматриваться как базовый инструмент разработки и исследования новых подходов и методов для перспективных информационных технологий.

Принцип открытой интерпретации ДС предполагает свободное (открытое) назначение смысловой нагрузки в различных сферах применения в терминах исчисляемых древовидных структур.

Универсальность исчисления ДС в сочетании с их открытой содержательной интерпретируемостью, может составить необходимую основу для формирования единого поля представления и обработки компьютерной информации (программ и данных).

Система программирования ПАРСЕК реализована как надстройка над языком Си так, что трансляция из языка ПАРСЕК осуществляется в текст на языке Си с подключением поддерживающих библиотек.

Формирование, редактирование и просмотр деревьев осуществляется в специальном редакторе. Наряду с редактором деревьев и транслятором в стендовом варианте системы имеется простейший отладчик.

Данная система предназначена и получит развитие для отработки методологии практического программирования в стиле исчисления ДС, уточнения сфер эффективного применения, а также для исследования возможностей использования исчисления ДС в качестве открытой, неограниченной в развитии, инфрмационно-функциональной среды математической унификации программных средств новых поколений. Проблема формирования единого информационного поля выходит на приоритетные позиции в связи с лавинообразным и стихийным развитием среды Internet/Intranet.

 

Первичные понятия [1]

Среди ДС необходимо различать деревья-данные и деревья-программы. В общем случае любые ДС представляют собой деревья-данные. Вместе с тем, нагруженные определённым синтаксисом деревья-данные могут представлять собой деревья-программы, которые компилятор воспринимает в качестве программ. Таким образом, деревья-программы отличаются от деревьев-данных только внешней интерпретацией, при единой внутренней организации. В «традиционных» языках программирования листинги программ (аналог деревьев программ) представляют собой «линейный» (одномерный) набор символов, по которому транслятор полностью «воссоздаёт» структуру языка, неявно задаваемую синтаксическим контекстом высказываний. Явное задание структуры программы в виде дерева снижает вычислительную нагрузку при синтаксическом анализе.

Исчисление ДС, которое поддерживает ПАРСЕК, обладает ещё не в полной мере осознанным потенциалом единого и математически однородного поля представления и обработки компьютерной информации [5,6], который, по мнению авторов, способен дать новый импульс к пониманию и развитию компьютерной среды.

Из опыта использования системы ПАРСЕК

Экспериментальные исследования системы ПАРСЕК [1] на модельных классах задач начались после создания в 1993-94г.г. первой версии компилятора.

В 1999-2000г.г. с помощью системы ПАРСЕК в локальной сети предприятия построены информационные подсистемы (интранет-приложения) для решения текущих задач управления научным учреждением.

Приведем краткие сведения о разработке и эксплуатации одного из интранет-приложений. Число рабочих мест с санкционированным доступом – около 100, количество информационных объектов, требующих ежемесячного обслуживания и обновления – около 1500 (объекты неоднородны, число разных типов объектов – несколько десятков). Схема обслуживания и взаимодействия пользователей с объектами стационарна. Интенсивный рабочий цикл – в среднем 20-25 дней в каждом месяце. Предусмотрено автоматическое резервирование всей текущей информации и автоматическое ежемесячное пополнение архива итоговой информацией.

В отсутствие проблемно-ориентированных средств автоматизации проектирования информационных систем на разработку и программирование трем программистам, не имевшим опыта решения подобных задач и, соответственно, каких-либо заготовок, потребовалось 5 месяцев.

При сдаче системы в эксплуатацию специального обучения не потребовалось. Эксплуатация в течение трех лет осуществляется без сопровождения выделенным системным администратором.

В потенциале подобные приложения способны к интеграции по вертикали с выше и ниже лежащими подсистемами управления, а также масштабированию по горизонтали на любое количество компьютеров, находящихся как в одной, так и разных сетях, включая Интернет. Для этого участие программистов не требуется

Физикам представлена демонстрация простейшей задачи столкновения частиц в модели упругих шаров. В демонстрации с помощью ПАРСЕК реализованы алгоритмы расчета траекторий движения шаров по задаваемым извне начальным условиям, а также фрагменты базы данных (с интерфейсом в виде электронных таблиц) с быстрым поиском (время поиска слабо зависит от объёма данных в базе). Траектории шаров заносятся в эту базу данных. Реализован поиск событий по характеристическим предикатам. При решении физических задач ПАРСЕК показывает возможности быстро собирать и разбирать решения, компоновать объекты с графической поддержкой.

Демонстрация размещена на рабочей станции в Технопарке МИФИ.

 

Заключение

Традиционно программы перспективных исследований в физике элементарных частиц предъявляют предельные требования к компьютерным средствам и технологиям. Сверхбольшие объемы данных требуют эффективного решения проблем накопления и использования данных, повышения скорости их обработки, высокоорганизованной коллективной работы физиков в ходе подготовки и анализа результатов дорогостоящих физических экспериментов.

Компьютерный прогресс во многом связан с этой фундаментальной областью знаний. Неслучайно, Web-технологии родились в ЦЕРНе – центре мировой интеллектуальной элиты, решающем огромное количество разноплановых и, что очень важно, технологически связанных между собой задач поиска фундаментальных закономерностей устройства материи.

Вот и сейчас, для решения новых задач ядерной физики потребовалась не только интеграция распределенных вычислительных ресурсов многих тысяч компьютеров, но совокупная с ними интеграция (с качественно новыми требованиями) информационной активности тысяч разнопрофильных специалистов, определяющих ход теоретических и экспериментальных исследований. Важно отметить, что беспрецедентные по сложности проблемы накопления и человеко-машинной обработки компьютерной информации создаваемой под новейший физический проект БАК (LHC) "информационной фабрики" должны решаться в плотных временных графиках с минимизацией финансовых рисков.

В этой ситуации крайне важно контролировать уровень сложности проблем компьютерной поддержки. Чисто компьютерные проблемы ни в коем случае не должны доминировать над физическими.

Grid [3,4] – хоть и новый, но уже cложившийся технологически подход к построению систем распределенной обработки и накопления данных. Проект БАК ориентируется на широкое его использование. Это не удивительно, поскольку реальных альтернатив до сих пор не было.

Тем не менее, требования к компьютерной поддержке со стороны проекта БАК столь экстремальны, что однозначного ответа в отношении адекватности Grid-технологий этим требованиям дать нельзя.

В [5,6] обращается внимание на фундаментальность проблем распределенной обработки и хранения данных в ресурсах глобальной компьютерной сети, которые до сих пор игнорировались в реализациях Grid-технологий. Нельзя исключить, что возможностей Grid-технологий может оказаться недостаточно для полномасштабного решения возникающих перед физиками проблем. В частности, труднопреодолимым препятствием к интеграции распределенных вычислительных и интеллектуальных ресурсов может стать проблема "информационного шума" [5,6], который воспроизводится на уровне индустриальных средств программирования. Чем сложнее и разнороднее интегрируемое информационное пространство, тем острее проблемы информационного шума. Чем раньше учесть это фундаментальное обстоятельство, тем больше времени будет на выработку адекватных компьютерных решений.

ПАРСЕК изначально построен в "нешумящей" компьютерной модели машинных вычислений [5,6], поэтому может стать совершенно необходимым дополнением к известным в рамках Grid подходам к компьютерной поддержке проекта БАК.

 

Список литературы

 

1.        Затуливетер Ю.С., Халатян Т.Г. ПАРСЕК — язык компьютерного исчисления древовидных структур с открытой интерпретацией. Стендовый вариант системы программирования. — М., 1997 (Препринт/Институт проблем управления РАН).

2.        http://lhc.web.cern.ch

3.        “The Grid: Blueprint for a New Computing Infrastructure” Ed.: I. Foster and C. Kesselman,  Morgan Kaufmann, 1999.

4.        Смирнов С.Ю. Интернет следующего поколения - всемирная сеть распределенных вычислений GRID. Сб.трауч. сессии МИФИ-2002.

5.        Затуливетер Ю.С. Информация и эволюционное моделирование. Труды Международной конференции "Идентификация систем и задачи управления", SICPRO`2000, Москва, 26-28 сентября 2000г, Институт проблем управления РАН, с.1529-1573 (http://zvt.hotbox.ru).

6.        Затуливетер Ю.С. О фундаментальных проблемах программируемого метакомпьютинга. Научный сервис в сети Интернет. Труды всероссийской научной конференции (23-28 сентября 2002г., Новороссийск), М.: Изд-во МГУ, 2002. С.218-221.